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Análisis con pruebas Estadísticas 


(«Raíz Unitaria (Dickey-Fuller) y estacionalidad en Excel | XLSTAT 
Support Center», s.f.) 


Prueba Dickey fuller 


Hq : La serie tiene una raíz unitaria (no estacionaría) (1) 
Hi : La serie no tiene una raíz unitaria 


Prueba Phillips-Perron (No paramétrica) 

Hq : Hay al menos una raíz unitaria {p > 0.05) 
Hi : No hay raíz unitaria (estacionaria) 

(2) 

Prueba KPSS 

Hq : La serie es estacionaria 

Hi : La serie no es estacionaria 

(3) 

□ S - : ^ ■ 

= . = 
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Modelo Autorregresivo 


¿Que 

es el modelo AR 

? 

Es un modelo lineal que 
pasados de la misma eos 
patrón. Se puede explica 
pasados, Xt-i, ■ ■ ■ ,Xt-j 

puede predecir algo basado en valores 
a, se puede predecir basado en un cierto 
como una combinación lineal de p-valores 
,, agregado el error aleatorio de la misma 

serie 

(Tabassum, 2019) 


Xt = c + ífiXt-i + (p2Xt-2 H - h íppXt-p + et 


ífi, ■ ■ ■ ,ípp Son parámetros en el modelo, no puede ser cero 
Xt valor esperado, es estacionario 

Son valores pasados de la serie 
Es el ruido blanco (/U = 0 cr^ = 1) 
es la constante o deriva (drift) 


Xt 

et 

c 






Proceso Estacionario y Causal 


El proceso estacionario significa que las propiedades estadísticas de 
un proceso que genera una serie de tiempo no cambian con el 
tiempo. ¿porque es importante? 

Por la razón de que los procesos estacionarios son mas fáciles de 
analizar. Un proceso ca usal significa que pu ede ser representado 
como un proceso lineal 


(Castagno, 2020) 



Causal 


Estacionaria 

30 

* 

10 

c 


• 



25 

• 



^ 20 

• 
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tiempo 
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Tipos AR(p) 


Nota 

AR(p) es un modelo auto regresivo de orden p 
Un modelo AR(1) 

(fii = 0 Xt es equivalente a un ruido blanco 

1^1 = 1 y c = 0 Xt es equivalente a una caminata aleatoria 

1^1 = 1 y c 7 ^ 0 Xt es equivalente a una caminata aleatoria con deriva (drift) 

ifii <Q Xt tiende a oscilar alrededor de la media 

AR(1) modelo: —1 < pi < 1 

AR(2) modelo: —1 < (p 2 < 1, <Pi + <P 2 < 1, <P 2 — <Ai < 1 
Cuando p>3, las restricciones son mucho mas complejas 
referencia tomada de (Hyndman y Athanasopoulos, 2018). 


□ 
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AR(1) 


Xt = c+ (piXt-1 + e 



Nota 

A medida que se agrega mas retardos (lags), el modelo se hace mas 
complejo con mas coeficientes. 




Ejemplo 


Usando la data de la Exportación del CACAO Peruano. 


date 

cacao 

2007-01 

2.13525 

2007-02 

2.466691 

2020-07 

14.74114 


□ 
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Se hizo el recorte respectivo desde: 

train desde enero del 2007 hasta diciembre del 2016 
test desde enero 2018 hasta julio del 2020 


testing 

training 



2007-01 2017-01 2020-07 

El recorte train nos permite entrenar el modelo o crearla, mientras 
que el test servirá para comparar la predicción usando el modelo 
creado por train. 

Es importante que el pronostico tenga la misma cantidad de 
elementos que el test. 




Usando Python 


cargando librerías 


1 import pandas as pd 

2 import numpy as np 

3 from pandas.plotting import lag_plot 

4 from statsmodels.graphics.tsaplots import plot_acf, 
^ plot_pacf 

5 from statsmodels.tsa.stattools import adfuller 

6 from matplotlib import pyplot 

7 from statsmodels.tsa.arima_model import ARMA 

8 from pandas.plotting import lag_plot, 

■-f autocorrelation_plot ,hist_series 

9 import warnings 

10 warnings.filterwarnings ("ignore") 

11 from sklearn.metrics import mean_squared_error, 

mean_absolute_error, r2_score 


(Pedregosa y col., 2011) 
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Importando y recortando 


12 


dt = pd.read_csv("cacaos. csv" , header=0j 
parse_dates=[0] j index_col=0, sep=",") 
train, test = dt.iloc[1:120], dt.iloc[121:] 
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¿Que pasaría si omito la estacionariedad en los datos? 


□ 
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14 lag_plot(train) 

15 pyplot .titleC'AutoCorrelación train") 

16 plot_acf(train, zero=False , lags=12) 

17 pyplot .titleC'ACF plot") 

18 pyplot. show O 


19 




AutoCorrelación train 



”1-1-1-1-1-1-1— 

2 4 6 8 10 12 14 

y(t) 


□ “ ■ S 


1 ' OQ.O 



ACF plot 





□ “ 
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Aplicando modelo para estimación 


20 # modelo 

21 model = ARMA(train, order=(9,0)) 

22 fit = model.fitO 


se ha usado un modelo AR(9) porque es el que mejor se aproxima a 
la realidad 


□ 
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23 


print (fit.summary O) 


Generando un resumen 



coef 

std err 

z 

P> 1 z 1 

[0.025 

0.975] 

const 

5.6020 

1.958 

2.860 

0.004 

1.764 

9.440 

ar. L1 

1.3952 

0.082 

16.972 

0.000 

1.234 

1.556 

ar. L2 

-0.7594 

0.150 

-5.060 

0.000 

-1.054 

-0.465 

ar. L3 

0.2601 

0.166 

1.570 

0.116 

-0.065 

0.585 

ar. L4 

-0.3021 

0.167 

-1.812 

0.070 

-0.629 

0.025 

ar. L5 

0.3150 

0.167 

1.887 

0.059 

-0.012 

0.642 

ar. L6 

0.0046 

0.166 

0.028 

0.978 

-0.321 

0.330 

ar. L7 

-0.0958 

0.164 

-0.582 

0.560 

-0.418 

0.227 

ar. L8 

-0.2745 

0.152 

-1.803 

0.071 

-0.573 

0.024 

ar. L9 

0.4312 

0.086 

5.017 

0.000 

0.263 

0.600 


Roots 


□ 
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En la tabla anterior cuando p < 0.05, se dice que pi es 
significativamente diferente de 0. 

Nota: ar.Li son los retrasos ¡pi 


Creando una estimación 


fit = model.fitO 
print (fit.summary()) 
print(fit.k_ar) 
print (fit.params) 

predio = fit.predict(start=len(train), 
end=len(train)+len(test)-l ) 





29 

30 

31 

32 

33 

34 

35 

36 

37 

38 

39 


Función para analizar la fiabilidad 


# - Fiabilidad del modelo - 

def timeseries_evaluation_metrics_func (y_true, y_pred): 
def mean_absolute_percentage_error(y_true, y_pred): 

y_true, y_pred = np.array(y_true), np.array(y_pred) 
return np.mean(np.abs((y_true - y_pred) / y_true)) ♦ 100 
print ( 'Evaluation metric resulta:-') 

print(f'MSE is : {mean_squared_error(y_true,y_pred) } ' ) 
print(f'MAE is : {mean_absolute_error(y_true,y_pred) } ' ) 
print (f'RMSE is : {np.sqrt(mean_squared_error(y_true, 

^ y_pred))}') 

print (f'MAPE is : 

^ {mean_absolute_percentage_error(y_true,y_pred) } ' ) 
print(f'R2 is : {r2_score(y_true, y_pred) } ' ,end= ' \n\n' ) 


□ 
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Resúmenes de fiabilidad del modelo 


AR(p) MSE MAE RMSE MAPE B? 


AR(1) 

AR(2) 

AR(3) 

AR(4) 

AR(5) 

AR(6) 

AR(7) 

AR(8) 

AR(9) 


51.656 

54.220 

53.361 

53.228 

51.219 

53.345 

51.156 

35.461 

20.212 


6.327 

6.556 

6.486 

6.474 

6.290 

6.479 

6.290 

4.938 

3.668 


7.187 

7.363 

7.305 

7.296 

7.157 

7.304 

7.152 

5.955 

4.496 


50.352 

52.431 

51.793 

51.685 

50.019 

51.735 

50.014 

38.226 

30.052 


-3.774 

-4.011 

-3.931 

-3.919 

-3.733 

-3.93 

-3.728 

-2.277 

- 0.868 


print (timeseries_evaluation_metrics_func(y_true= 
^ test,y_pred=predic)) 









test vs predicho 





□ “ 
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Algunas funciones R que resultan igual 


1 tb = read.csv(file.choose Ojheader = T)[,2] 

2 yt = tsCdata = tb,start = c(2007,1),end = 

c(2020,7)jfrequency = 12) 

3 # recortar data 

4 train = window(yt ,start=c(2007,1), end=c(2016,12)) 

5 test = windowCyt, start = c(2017,l)) 

6 # acf(x = yt,lag.max = J^) 

7 lag.plotCx = ytjlags = 12) 

8 acf(x = train) 

9 pacf(x = train) 

10 fit = (arimaCx = train,order = c(9,0,0))) 

11 predicho = predict(fit,n.ahead = 43 )$pred 

12 plot .tsCtest, lwd= 2) 
linesCpredicho, col="red", lwd=2) 
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Corrigiendo el modelo usando transformación 
y diferencia 


46 # - aplicando diferenciación — 

47 tb = np.diff(np.log(dt.cacao), n=2) 

48 train2, test2 = tb[2:118], tb[118:] 


Comprobando con la prueba de Dickey Fuller 


53 adf = adfuller(train2) 

54 print(f'ADF Estadístico: {adf[0]}') 

55 print(f'ADF p-valor: {adf[l]}') 


Estadístico 

p-valor 

-8.6788 

4.342257047351299e-14 


Siendo {p < 0.05), la serie es Estacionaria 










Gráficos ACF y PACF 


ACF train 



Casos en un AR() 

PACF representa retrasos significativos 
ACF debe ser geométrico. 


PACF train 



o 5 10 15 20 
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Analizando Fiabilidad 


AR(p) MSE MAE RMSE MAPE F? 


AR(1) 

0.0256 

AR(2) 

0.025 

AR(3) 

0.0254 

AR(4) 

0.026 

AR(5) 

0.0267 

AR(6) 

0.0268 

AR(7) 

0.027 

AR(8) 

0.024 

AR(IO) 

0.017 

AR(ll) 

0.0126 

AR(12) 

0.013 


0.126 

0.160 

0.125 

0.159 

0.125 

0.159 

0.125 

0.162 

0.126 

0.163 

0.126 

0.164 

0.126 

0.163 

0.122 

0.154 

0.103 

0.13 

0.088 

0.112 

0.089 

0.114 


100.12 

-0.001 

100.08 

0.009 

100.722 

0.007 

104.53 

-0.024 

105.156 

-0.04 

104.58 

-0.044 

102.095 

-0.039 

105.37 

0.078 

182.963 

0.3413 

219.91 

0.5096 

226.41 

0.489 


Nota: Es aplicando transformación 
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Promedio Móvil MA() 


□ 




>0 0,0 


Promedio Móvil 


¿Que es MA(( 7 )? 


Es un modelo que utiliza la dependencia entre una observación y un 
error residual de un modelo de promedio móvil aplicado a 
observaciones retrasadas (lags), q es un parámetro de cuántas 
observaciones retrasadas se deben tomar. Contra 
AR(p) , el modelo finito es siempre estacionario 


rio al modelo 
(Kang, 2017) 


Xt — c + Oet-i + et 


□ 
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Leyendo un ACF y PACF 




ACF 

PACF 

AR 

MA 

ARMA 

Geométrico 

q retrasos significativos (orden) 
Geométrico 

p retrasos significativos (orden) 
Geométrico 

Geométrico 


(«READING ACF AND PACF PLOTS», s.f.) 


□ 
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DdacfDdpacf 

ACF es significativo solo una vez (en realidad, la primera entrada 
en el ACF siempre es significativo, ya que no hay retrasos en la 
primera entrada - es la correlación consigo mismo), mientras que el 
PACF es geométrico. Por tanto, es un proceso MA (1). 
























Modelos Mixtos ARMA 


(p) valores retardos 


ARMA(p,(7) 


{q) retardos del error 


Modelo ARIMA 


AR Auto Regresión 

I Integrado (Diferenciación de observaciones,permitir estacionariedad) 
MA Promedio Móvil (observación y error residual) 


p Numero de observaciones de retardo en el modelo, orden de 
retraso (lag) 

d Numero de veces que se diferencian las observaciones en bruto 
(raw), grado de diferenciación 
q Orden de la media móvil 
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